Phân tích cụm phân cấp là gì? Nghiên cứu khoa học liên quan

Phân tích cụm phân cấp là phương pháp phân nhóm dữ liệu không giám sát, xây dựng cấu trúc phân tầng bằng cách hợp nhất hoặc chia tách các cụm dựa trên độ tương đồng. Thuật toán này không cần xác định số cụm trước, thường sử dụng biểu đồ cây (dendrogram) để trực quan hóa mối quan hệ phân cấp giữa các đối tượng.

Định nghĩa phân tích cụm phân cấp

Phân tích cụm phân cấp (hierarchical clustering) là một phương pháp học máy không giám sát, được sử dụng để nhóm các đối tượng dữ liệu thành các cụm (clusters) dựa trên mức độ tương đồng của chúng. Mục tiêu là tạo ra một cấu trúc phân cấp thể hiện mối quan hệ giữa các cụm, thường được biểu diễn dưới dạng biểu đồ cây (dendrogram).

Trong kỹ thuật này, mỗi điểm dữ liệu ban đầu được xem là một cụm riêng biệt. Sau đó, các cụm được kết hợp từng bước dựa trên khoảng cách giữa chúng, cho đến khi tất cả dữ liệu hợp nhất thành một cụm duy nhất (trong phương pháp kết hợp), hoặc tách dần từ một cụm tổng thể thành các cụm nhỏ hơn (trong phương pháp phân rã).

Không giống như các thuật toán như K-means hoặc DBSCAN, phương pháp này không yêu cầu xác định trước số cụm. Điều này đặc biệt hữu ích trong các trường hợp cần khám phá dữ liệu hoặc phân tích mối quan hệ phân tầng trong hệ thống.

Phân biệt với các phương pháp phân cụm khác

Phân cụm phân cấp khác biệt với các phương pháp phân cụm “phẳng” như K-means hoặc phương pháp dựa trên mật độ như DBSCAN. Các phương pháp phẳng yêu cầu chỉ định trước số cụm hoặc ngưỡng mật độ, trong khi phân cụm phân cấp hoạt động dựa trên khoảng cách và xây dựng cấu trúc phân tầng, cho phép cắt cụm linh hoạt tại nhiều cấp độ khác nhau.

Bảng so sánh dưới đây minh họa sự khác biệt giữa một số thuật toán phổ biến:

Thuật toánYêu cầu tham sốKhả năng mở rộngƯu điểmNhược điểm
HierarchicalKhông cần số cụmVừaDendrogram chi tiếtChi phí tính toán cao
K-meansCần số cụm k k CaoHiệu quả với dữ liệu lớnPhụ thuộc khởi tạo
DBSCANε \varepsilon , minPtsTrung bìnhPhát hiện cụm không cầuKhó tối ưu tham số

Scikit-learn – Hierarchical Clustering

Phân loại phân cụm phân cấp

Có hai loại chính trong phân cụm phân cấp: phương pháp kết hợp (agglomerative) và phương pháp phân rã (divisive). Phương pháp kết hợp là phổ biến hơn trong thực tiễn và được hỗ trợ rộng rãi trong các thư viện phân tích dữ liệu.

Trong phân cụm kết hợp, thuật toán bắt đầu với mỗi điểm là một cụm riêng. Ở mỗi bước, hai cụm gần nhất được hợp nhất cho đến khi chỉ còn một cụm duy nhất. Đây là quá trình từ dưới lên (bottom-up). Ngược lại, trong phân cụm phân rã, thuật toán bắt đầu với một cụm bao gồm toàn bộ dữ liệu và tách dần từng cụm nhỏ hơn, đi theo hướng từ trên xuống (top-down).

So sánh hai phương pháp:

  • Agglomerative: Thường dùng, hiệu quả tốt, dễ trực quan hóa.
  • Divisive: Khó triển khai, ít được dùng do tốn tài nguyên tính toán.

Trong các thư viện phổ biến như scikit-learn hoặc scipy, phương pháp kết hợp là mặc định khi triển khai phân tích cụm phân cấp.

Đo lường khoảng cách giữa cụm

Để thực hiện phân cụm phân cấp, điều quan trọng là định nghĩa cách đo khoảng cách giữa các cụm. Khoảng cách này không chỉ xác định sự tương đồng giữa hai điểm mà còn giữa hai tập hợp điểm. Có nhiều chiến lược khác nhau để làm việc này, mỗi cách sẽ dẫn đến cấu trúc cụm khác nhau.

  • Liên kết đơn (single linkage): Khoảng cách giữa hai cụm là khoảng cách nhỏ nhất giữa các điểm thuộc hai cụm đó.
  • Liên kết hoàn chỉnh (complete linkage): Khoảng cách lớn nhất giữa các điểm của hai cụm.
  • Liên kết trung bình (average linkage): Trung bình khoảng cách giữa mọi cặp điểm thuộc hai cụm.
  • Liên kết trung tâm (centroid linkage): Khoảng cách giữa trung tâm (centroid) của hai cụm.

Công thức khoảng cách phổ biến nhất là khoảng cách Euclidean:

d(x,y)=i=1n(xiyi)2d(x, y) = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}

Tùy vào mục tiêu phân tích và bản chất của dữ liệu, lựa chọn chiến lược đo khoảng cách sẽ ảnh hưởng đáng kể đến kết quả cụm cuối cùng. Trong các tập dữ liệu có hình dạng cụm kéo dài hoặc không đồng nhất, liên kết đơn có thể gây ra hiệu ứng "chuỗi" (chaining effect), còn liên kết hoàn chỉnh lại có xu hướng tạo các cụm chặt hơn.

Dendrogram và cắt cụm

Kết quả của phân tích cụm phân cấp thường được biểu diễn dưới dạng biểu đồ cây gọi là dendrogram. Đây là công cụ trực quan mạnh mẽ giúp hiển thị cấu trúc phân tầng của dữ liệu. Trục tung thể hiện khoảng cách hoặc độ tương đồng giữa các cụm, trong khi các nhánh cây cho biết trình tự hợp nhất hoặc phân tách cụm.

Việc xác định số lượng cụm trong dendrogram không cố định mà phụ thuộc vào việc cắt cây tại một ngưỡng độ cao nhất định. Việc chọn ngưỡng cắt phù hợp giúp chia cây thành các nhánh tương ứng với các cụm dữ liệu có ý nghĩa. Một cách phổ biến là tìm “khoảng nhảy” lớn nhất giữa các mức liên kết để quyết định vị trí cắt.

Ví dụ, nếu đoạn dài nhất không bị phân chia trong dendrogram nằm ở khoảng giá trị 7 trên trục khoảng cách, thì có thể chọn ngưỡng cắt tại giá trị này để chia tập dữ liệu thành các cụm ổn định. Trong thực tế, dendrogram được sử dụng cùng với các kỹ thuật đánh giá như chỉ số Silhouette hoặc Gap Statistic để xác thực cấu trúc cụm.

Ưu điểm và nhược điểm

Phân tích cụm phân cấp có nhiều ưu điểm khiến nó trở thành lựa chọn quan trọng trong các bài toán khám phá dữ liệu, đặc biệt là khi không biết trước số cụm hoặc cần tìm hiểu cấu trúc phân tầng của dữ liệu.

  • Không yêu cầu xác định số cụm trước khi phân tích.
  • Cho phép khám phá phân tầng tự nhiên trong dữ liệu.
  • Hiển thị kết quả trực quan dễ hiểu qua dendrogram.
  • Hoạt động tốt trên tập dữ liệu nhỏ và trung bình.

Tuy nhiên, phương pháp này cũng có một số hạn chế nghiêm trọng:

  • Chi phí tính toán cao, đặc biệt với dữ liệu lớn do phải tính toàn bộ ma trận khoảng cách và duyệt cây.
  • Nhạy cảm với nhiễu và điểm ngoại lai.
  • Không thể sửa đổi hoặc đảo ngược quyết định phân cụm sau khi đã gộp.

Vì vậy, trong trường hợp xử lý hàng triệu mẫu, người ta thường dùng phương pháp phân cụm phẳng hoặc triển khai các biến thể gần đúng để tiết kiệm tài nguyên tính toán.

Ứng dụng trong thực tế

Phân tích cụm phân cấp được ứng dụng rộng rãi trong nhiều lĩnh vực nghiên cứu và công nghiệp, nơi cần phân nhóm các đối tượng có quan hệ phân tầng hoặc khi dữ liệu không có cấu trúc cụm rõ ràng.

  • Phân tích gen: Gom nhóm các gen hoặc mẫu sinh học dựa trên biểu hiện gene (microarray data), giúp xác định các nhóm chức năng sinh học.
  • Tiếp thị và kinh doanh: Phân khúc khách hàng dựa trên hành vi, chi tiêu, hoặc tương tác với sản phẩm.
  • Phân tích tài liệu: Nhóm các tài liệu hoặc trang web theo nội dung hoặc chủ đề, ứng dụng trong máy tìm kiếm và phân loại văn bản.
  • Chẩn đoán y học: Phân loại bệnh nhân hoặc mẫu bệnh lý dựa trên các chỉ số lâm sàng hoặc hình ảnh.

Trong các nghiên cứu khảo sát xã hội học hoặc tâm lý học, hierarchical clustering thường được dùng để phát hiện các nhóm thái độ, hành vi, hoặc các kiểu mẫu phản ứng trong bảng câu hỏi.

Triển khai thuật toán bằng phần mềm

Phân tích cụm phân cấp được hỗ trợ bởi nhiều thư viện mã nguồn mở và phần mềm thống kê. Tùy theo ngôn ngữ và mục đích sử dụng, người dùng có thể lựa chọn các công cụ phù hợp:

  • Python: Thư viện scikit-learn cung cấp thuật toán Agglomerative Clustering, cùng hàm plot_dendrogram để trực quan hóa.
  • R: Các hàm hclust()dendrogram() trong gói stats hỗ trợ đầy đủ phân tích phân cấp.
  • MATLAB: Cung cấp hàm linkagedendrogram cho xử lý dữ liệu số lượng lớn.

Quy trình triển khai điển hình gồm:

  1. Chuẩn hóa dữ liệu để đảm bảo các đặc trưng có cùng tỷ lệ ảnh hưởng.
  2. Tính toán ma trận khoảng cách (Euclidean, cosine, hoặc Mahalanobis).
  3. Áp dụng thuật toán liên kết cụm (single, complete, average, centroid).
  4. Vẽ dendrogram và lựa chọn ngưỡng cắt cụm.
  5. Đánh giá cụm bằng chỉ số như Silhouette Score.

Các biến thể nâng cao như Ward linkage (giảm phương sai nội cụm) cũng được hỗ trợ trong scikit-learn và được khuyến khích khi xử lý dữ liệu số học có tính tuyến tính cao.

Tài liệu tham khảo

  1. Jain, A. K., & Dubes, R. C. (1988). Algorithms for Clustering Data. Prentice-Hall.
  2. Müllner, D. (2011). Modern hierarchical, agglomerative clustering algorithms. arXiv:1109.2378.
  3. Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer.
  4. Scikit-learn – Hierarchical Clustering
  5. Nature Reviews Genetics – Clustering and visualization of gene expression data
  6. Sneath, P. H. A., & Sokal, R. R. (1973). Numerical Taxonomy. W.H. Freeman.

Các bài báo, nghiên cứu, công bố khoa học về chủ đề phân tích cụm phân cấp:

So sánh thành phần các hợp chất bay hơi của 15 giống táo gai Trung Quốc khác nhau (Ziziphus jujuba Mill.) Dịch bởi AI
Springer Science and Business Media LLC - Tập 56 - Trang 1631-1640 - 2019
Chiết xuất từ quả táo gai (Ziziphus jujuba Mill.) đã được sử dụng phổ biến như một thành phần tạo hương vị do hương thơm độc đáo của nó. Trong nghiên cứu này, phương pháp chiết xuất vi thể pha rắn đã được sử dụng để chiết xuất các hợp chất bay hơi trong quả táo gai tươi, với sự trợ giúp của GC–MS để tách và xác định hóa học hơn nữa. Kết quả cho thấy, 33 hợp chất bay hơi, bao gồm aldehyde, alcohol,...... hiện toàn bộ
#táo gai #Ziziphus jujuba #hợp chất bay hơi #chiết xuất vi thể pha rắn #phân tích cụm phân cấp #PCA
Nên bơm nước biển từ độ sâu nào ở Biển Đông cho nghiên cứu y dược? Dịch bởi AI
Journal of Ocean University of Qingdao - Tập 12 - Trang 134-138 - 2013
Trong nghiên cứu này, nước biển được bơm lên từ độ sâu 150, 200, 300, 500 và 1000 m ở Biển Đông và được phân tích để xác định độ sâu nào nên bơm nước biển sâu (DSW) cho mục đích y dược. Độ sâu bơm DSW được xác định dựa trên các thành phần hóa học. Các phân tích về các nguyên tố vô cơ và chất hữu cơ hòa tan (DOM) được thực hiện bằng phương pháp quang phổ khối plasma cảm ứng (ICP-MS) và phương pháp ...... hiện toàn bộ
#Biển Đông #nước biển sâu #nghiên cứu y dược #thành phần hóa học #phân tích cụm phân cấp #phân tích thành phần chính
Phân biệt các chọn lọc nội khối Russet Norkotah bằng phân tích phân loại và phân tích phân biệt chuẩn Dịch bởi AI
American Potato Journal - Tập 81 - Trang 203-207 - 2004
Chọn lọc nội khối đã được sử dụng để phát triển các phiên bản cải tiến của những giống khoai tây phổ biến hiện có. Phương pháp này thường được thực hiện để khắc phục những thiếu sót về tính trạng hạn chế sản xuất hoặc chấp nhận giống cây trồng. Do mối quan hệ di truyền gần gũi, việc phân biệt giữa các dòng và giống cây trồng gốc trở nên khó khăn hơn so với việc phân biệt giữa các giống lai được tạ...... hiện toàn bộ
#Russet Norkotah #chọn lọc nội khối #phân tích thống kê #phân tích phân cụm phân cấp #phân tích phân biệt chuẩn
Sự tinh tế của suy giảm nhận thức trong bệnh xơ cứng nhiều hình: một nghiên cứu khám phá sử dụng phân tích cụm phân cấp từ kết quả CANTAB Dịch bởi AI
BMC Neurology - Tập 18 - Trang 1-14 - 2018
Việc điều tra các thiếu hụt nhận thức trong bệnh xơ cứng nhiều hình (MS) là rất cần thiết để phát triển các chiến lược phục hồi nhận thức dựa trên bằng chứng. Chúng tôi đã tinh chỉnh việc đánh giá suy giảm nhận thức bằng cách sử dụng các bài kiểm tra tự động từ Pin tự động hoá các thử nghiệm tâm lý học Cambridge (CANTAB) và phân tích cụm phân cấp. Chúng tôi đã tìm kiếm các nhóm hồ sơ nhận thức khá...... hiện toàn bộ
#Bệnh xơ cứng nhiều hình #suy giảm nhận thức #phân tích cụm phân cấp #CANTAB #phục hồi nhận thức
Nồng độ và phân loại HCHs và DDTs trong đất từ hạ lưu sông Jiulong, Trung Quốc Dịch bởi AI
Frontiers of Environmental Science & Engineering - Tập 6 - Trang 177-183 - 2011
Đất là một nguồn quan trọng cho môi trường và các sinh vật khác về sự tích lũy sinh học của các loại thuốc trừ sâu hữu cơ clo (OCPs). Hai mươi bốn mẫu đất bề mặt đại diện đã được thu thập từ hạ lưu sông Jiulong, Trung Quốc, vào năm 2009. Nồng độ của các đồng phân hexachlorocyclohexane (HCHs) dao động từ 0,38 đến 39,52 ng·g−1, với giá trị trung bình là 9,51 ng·g−1. Nồng độ của dichlorodiphenyltrich...... hiện toàn bộ
#HCHs #DDTs #thuốc trừ sâu hữu cơ clo #ô nhiễm đất #sông Jiulong #phân tích tương quan #phân tích cụm phân cấp.
So sánh đánh giá hai quy tắc dừng ưu việt cho phân tích cụm phân cấp Dịch bởi AI
Psychometrika - - 1994
Một quy tắc dừng kiểu lặp mẫu phân chia cho phân tích cụm phân cấp được so sánh với tiêu chí nội bộ đã được phát hiện là vượt trội bởi Milligan và Cooper (1985) trong so sánh 30 quy trình khác nhau. Số lượng và mức độ chồng lấp của các phân phối quần thể tiềm ẩn đã được thay đổi một cách có hệ thống trong đánh giá tính hợp lệ của quy tắc dừng hiện tại. Cả tỷ lệ cơ bản quần thể đồng đều và không đồ...... hiện toàn bộ
Phương pháp phân cụm phân cấp cho dữ liệu thứ bậc Dịch bởi AI
Behaviormetrika - Tập 7 - Trang 23-39 - 1980
Đối với một ma trận dữ liệu được tạo thành từ các đối tượng và thứ bậc, một phương pháp phân cụm phân cấp được trình bày, phân chia các đối tượng thành các cụm đồng nhất về mặt thống kê dựa trên hệ số đồng thuận W của Kendall. Thuật toán này đã được chứng minh là hoạt động thành công. Các ví dụ minh họa về việc phân cụm dữ liệu thực tế được cung cấp. Phương pháp này hữu ích cho cả phân tích sơ bộ ...... hiện toàn bộ
#phân cụm phân cấp #dữ liệu thứ bậc #hệ số đồng thuận Kendall #phân tích đa chiều
Trích xuất các đoạn phim cho phân tích điện ảnh Dịch bởi AI
Multimedia Tools and Applications - Tập 26 - Trang 277-298 - 2005
Trong nghiên cứu này, chúng tôi tập trung vào vấn đề ‘biên tập ngược’ trong phân tích phim, tức là việc trích xuất các đoạn phim, những cảnh quay nguyên bản mà một biên tập viên phim sử dụng để tạo ra một cảnh hoàn chỉnh. Khả năng phân rã các cảnh và đoạn phim cuối cùng thành các đoạn là rất quan trọng cho việc duyệt phim không tuyến tính, chú thích nội dung và trích xuất các cấu trúc điện ảnh bậc...... hiện toàn bộ
#trích xuất đoạn phim #phân tích điện ảnh #biên tập ngược #phân cụm phân cấp #tương đồng
Tiềm Năng của Quang Phổ Raman Trong Việc Phân Loại Phi lê Cá Dịch bởi AI
Food Analytical Methods - Tập 9 - Trang 1301-1306 - 2015
Vì sản phẩm thủy sản đại diện cho một nguồn thực phẩm quan trọng và đang phát triển trên toàn cầu, nên tỷ lệ xảy ra việc gán nhãn sai ý định đối với sản phẩm cá và các gian lận trong nhà hàng cũng gia tăng trên toàn thế giới. Trong nghiên cứu hiện tại, quang phổ Raman, như một kỹ thuật nhanh chóng và không xâm lấn, đã được áp dụng bằng cách sử dụng laser với bước sóng 532 nm để phân loại các phi l...... hiện toàn bộ
#quang phổ Raman #phân loại phi lê cá #kỹ thuật không xâm lấn #nguồn thực phẩm #phân tích cụm phân cấp
Phân tích sinh thái - địa lý về sự phân bố của Heracleum persicum, H. mantegazzianum, và H. sosnowskyi tại giới hạn phía Bắc của các vùng phân bố thứ cấp ở châu Âu Dịch bởi AI
Russian Journal of Biological Invasions - Tập 13 - Trang 203-214 - 2022
Bài báo này phân tích sự phân bố của hợp chất Heracleum persicum, H. mantegazzianum, và H. sosnowskyi tại giới hạn phía Bắc của các vùng phân bố thứ cấp ở châu Âu dựa trên dữ liệu gốc và dữ liệu đã công bố. Các hiện tượng H. persicum phía Bắc nhất được tìm thấy ở các khu vực ven biển ở phần phía Bắc và trung của bán đảo Scandinavia (đến 71° Bắc). Tại Fennoscandia, H. mantegazzianum và H. sosnowsky...... hiện toàn bộ
Tổng số: 10   
  • 1